Model Selection

Multi-frame Analysis

# Multi-frame Analysis

Cogvlm2 Llama3 Caption

CogVLM2-Caption is a video caption generation model used to generate training data for the CogVideoX model.

Transformers English

Vivit B 16x2 Kinetics400

ViViT is an extension of the Vision Transformer (ViT) for video processing, particularly suitable for video classification tasks.

Video Processing

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase